Flink源码|自定义Format消费MaxwellCDC数据

作者：唯爱天使之诺言 | 来源：互联网 | 2023-07-13 23:40

Flink1.11最重要的Feature——HiveStreaming之前已经和大家分享过了，今天就和大家来聊一聊另一个特别重要的功能——CDC。CDC概述何为CDC？Change

Flink 1.11 最重要的 Feature —— Hive Streaming 之前已经和大家分享过了，今天就和大家来聊一聊另一个特别重要的功能 —— CDC。

CDC概述

何为CDC？Change Data Capture，将数据库中的’增’、’改’、’删’操作记录下来。在很早之前是通过触发器来完成记录，现在通过 binlog+同步中间件来实现。常用的 binlog 同步中间件有很多，比如 Alibaba 开源的 canal[1]，Red Hat 开源的debezium[2]，Zendesk 开源的 Maxwell[3] 等等。

这些中间件会负责 binlog 的解析，并同步到消息中间件中，我们只需要消费对应的 Topic 即可。

回到 Flink 上，CDC 似乎和我们没有太大的关联？其实不然，让我们更加抽象地来看这个世界。

当我们用 Flink 去消费数据比如 Kafka 时，我们就仿佛在读一张表，什么表？一张不断有记录被插入的表，我们将每一条被插入的数据取出来，完成我们的逻辑。

Flink 源码 | 自定义 Format 消费 Maxwell CDC 数据

当插入的每条数据都没有问题时，一切都很美好。关联、聚合、输出。

但当我们发现，某条已经被计算过的数据有问题时，麻烦大了。我们直接改最后的输出值其实是没有用的，这次改了，当再来数据触发计算时，结果还是会被错误的数据覆盖，因为中间计算结果没有被修改，它仍然是一个错误的值。怎么办？撤回流似乎能解决这个问题，这也确实是解决这个问题的手段，但是问题来了，撤回流怎么确定读取的数据是要被撤回的？另外，怎么去触发一次撤回？

CDC 解决了这些：将消息中间件的数据反序列化后，根据 Type 来识别数据是 Insert 还是 Delete；另外，如果大家看过 Flink 源码，会发现反序列化后的数据类型变了，从 Row 升级为 RowData，RowData 能够将数据标记为撤回还是插入，这就意味着每个算子能够判断出数据到底是需要下发还是撤回。

CDC 的重要性就先说这么多，之后有机会的话，出一篇实时 DQC 的视频，告诉大家 CDC 的出现，对于实时 DQC 的帮助有多大。下面让我们回到正题。

既然有那么多 CDC 同步中间件，那么一定会有各种各样的格式存放在消息中间件中，我们必然需要去解析它们。于是 Flink 1.11 提供了 canal-json 和 debezium-json，但我们用的是 Maxwell 怎么办？只能等官方出或者说是等有人向社区贡献吗？那如果我们用的是自研的同步中间件怎么办？

所以就有了今天的分享：如何去自定义实现一个 Maxwell format。大家也可以基于此文的思路去实现其他 CDC format，比如 OGG, 或是自研 CDC 工具产生的数据格式。

如何实现

当我们提交任务之后，Flink 会通过 SPI 机制将 classpath 下注册的所有工厂类加载进来，包括 DynamicTableFactory、DeserializationFormatFactory 等等。而对于 Format 来说，到底使用哪个 DeserializationFormatFactory，是根据 DDL 语句中的 Format 来决定的。通过将 Format 的值与工厂类的 factoryIdentifier() 方法的返回值进行匹配来确定。

再通过 DeserializationFormatFactory 中的 createDecodingFormat(...) 方法，将反序列化对象提供给 DynamicTableSource。

通过图来了解整个过程(仅从反序列化数据并消费的角度来看)：

Flink 源码 | 自定义 Format 消费 Maxwell CDC 数据

想要实现 CDC Format 去解析某种 CDC 工具产生的数据其实很简单，核心组件其实就三个：

工厂类（DeserializationFormatFactory）：负责编译时根据 ‘format’ = ‘maxwell-json’创建对应的反序列化器。即 MaxwellJsonFormatFactory。
反序列化类（DeserializationSchema）：负责运行时的解析，根据固定格式将 CDC 数据转换成 Flink 系统能认识的 INSERT/DELETE/UPDATE 消息，如 RowData。即 MaxwellJsonDeserializationSchema。
Service 注册文件：需要添加 Service 文件 META-INF/services/org.apache.flink.table.factories.Factory ，并在其中增加一行我们实现的 MaxwellJsonFormatFactory 类路径。

再通过代码，来看看反序列化中的细节：

public void deserialize(byte[] message, Collectorout) throws IOException {
       try {
           RowData row = jsonDeserializer.deserialize(message);
           String type = row.getString(2).toString(); // "type" field
           if (OP_INSERT.equals(type)) {
               RowData insert = row.getRow(0, fieldCount);
               insert.setRowKind(RowKind.INSERT);
               out.collect(insert);
           } else if (OP_UPDATE.equals(type)) {
               GenericRowData after = (GenericRowData) row.getRow(0, fieldCount); // "data" field
               GenericRowData before = (GenericRowData) row.getRow(1, fieldCount); // "old" field
               for (int f = 0; f


其实并不复杂：先通过 jsonDeserializer 将字节数组根据 [data: ROW, old: ROW, type: String] 的 schema 反序列化成 RowData，然后根据 “type” 列的值来判断数据是什么类型：增、改、删；再根据数据类型取出 “data” 或者 “old” 区的数据，来组装成 Flink 认识的 INSERT/DELETE/UPDATE 数据并下发。
对象 jsonDeserializer 即 JSON 格式的反序列化器，它可以通过指定的 RowType 类型，读取 JSON 的字节数组中指定的字段并反序列化成 RowData。在我们的场景中，我们需要去读取如下 Maxwell 数据的 “data”, “old” 和 “type” 部分的数据。
{"database":"test","table":"product","type":"update","ts":1596684928,"xid":7291,"commit":true,"data":{"id":102,"name":"car battery","description":"12V car battery","weight":5.17},"old":{"weight":8.1}}
因此 MaxwellJsonDeserializationSchema 中定义的 JSON 的 RowType 如下所示。
private RowType createJsonRowType(DataType databaseSchema) {
       // Maxwell JSON contains other information, e.g. "database", "ts"
       // but we don't need them
       return (RowType) DataTypes.ROW(
           DataTypes.FIELD("data", databaseSchema),
           DataTypes.FIELD("old", databaseSchema),
           DataTypes.FIELD("type", DataTypes.STRING())).getLogicalType();
   }
databaseSchema 是用户通过 DDL 定义的 schema 信息，也对应着数据库中表的 schema。结合上面的 JSON 和代码，我们能够得知 jsonDeserializer 只会取走 byte[] 中 data、old、type 这三个字段对应的值，其中 data 和old 还是个嵌套JSON，它们的 schema 信息和 databaseSchema 一致。由于 Maxwell 在同步数据时，“old”区不包含未被更新的字段，所以 jsonDeserializer 返回后，我们会通过 “data” 区的 RowData 将 old 区的缺失字段补齐。
得到 RowData 之后，会取出 type 字段，然后根据对应的值，会有三种分支：


insert：取出 data 中的值，也就是我们通过DDL定义的字段对应的值，再将其标记为 RowKind.INSERT 类型数据，最后下发。

update：分别取出 data 和 old 的值，然后循环 old 中每个字段，字段值如果为空说明是未修改的字段，那就用 data 中对应位置字段的值替代；之后将 old 标记为 RowKind.UPDATE_BEFORE 也就意味着 Flink 引擎需要将之前对应的值撤回，data 标记为 RowKind.UPDATE_AFTER 正常下发。

delete：取出 data 中的值，标记为 RowKind.DELETE，代表需要撤回。

处理的过程中，如果抛出异常，会根据 DDL 中maxwell-json.ignore-parse-errors的值来确定是忽视这条数据继续处理下一条数据，还是让任务报错。
笔者在 maxwell-json 反序列化功能的基础之上，还实现了序列化的功能，即能将 Flink 产生的 changelog 以 Maxwell 的 JSON 格式输出到外部系统中。其实现思路与反序列化器的思路正好相反，更多细节可以参考 Pull Request 中的实现。

PR 实现详情链接： 
https://github.com/apache/flink/pull/13090


功能演示
给大家演示一下从 Kafka 中读取 Maxwell 推送来的 maxwell json 格式数据，并将聚合后的数据再次写入 Kafka 后，重新读出来验证数据是否正确。
Kafka 数据源表
CREATE TABLE topic_products (
 -- schema is totally the same to the MySQL "products" table
 id BIGINT,
 name STRING,
 description STRING,
 weight DECIMAL(10, 2)
) WITH (
'connector' = 'kafka',
'topic' = 'maxwell',
'properties.bootstrap.servers' = 'localhost:9092',
'properties.group.id' = 'testGroup',
'format' = 'maxwell-json');
Kafka 数据结果表&数据源表
CREATE TABLE topic_sink (
 name STRING,
 sum_weight DECIMAL(10, 2)
) WITH (
'connector' = 'kafka',
'topic' = 'maxwell-sink',
'properties.bootstrap.servers' = 'localhost:9092',
'properties.group.id' = 'testGroup',
'format' = 'maxwell-json'
);
MySQL 表
-- 注意，这部分 SQL 在 MySQL 中执行，不是 Flink 中的表
CREATE TABLE product (
id INTEGER NOT NULL AUTO_INCREMENT PRIMARY KEY,
name VARCHAR(255),
description VARCHAR(512),
weight FLOAT
);
truncate product ;
ALTER TABLE product AUTO_INCREMENT = 101;
INSERT INTO product
VALUES (default,"scooter","Small 2-wheel scooter",3.14),
      (default,"car battery","12V car battery",8.1),
      (default,"12-pack drill bits","12-pack of drill bits with sizes ranging from #40 to #3",0.8),
      (default,"hammer","12oz carpenter's hammer",0.75),
      (default,"hammer","14oz carpenter's hammer",0.875),
      (default,"hammer","16oz carpenter's hammer",1.0),
      (default,"rocks","box of assorted rocks",5.3),
      (default,"jacket","water resistent black wind breaker",0.1),
      (default,"spare tire","24 inch spare tire",22.2);
UPDATE product SET description='18oz carpenter hammer' WHERE id=106;
UPDATE product SET weight='5.1' WHERE id=107;
INSERT INTO product VALUES (default,"jacket","water resistent white wind breaker",0.2);
INSERT INTO product VALUES (default,"scooter","Big 2-wheel scooter ",5.18);
UPDATE product SET description='new water resistent white wind breaker', weight='0.5' WHERE id=110;
UPDATE product SET weight='5.17' WHERE id=111;
DELETE FROM product WHERE id=111;
UPDATE product SET weight='5.17' WHERE id=102 or id = 101;
DELETE FROM product WHERE id=102 or id = 103;
先看看能不能正常读取 Kafka 中的 maxwell json 数据。
select * from topic_products;

可以看到，所有字段值都变成了 Update 之后的值，同时，被 Delete 的数据也没有出现。
接着让我们再将聚合数据写入 Kafka。
insert into topic_sink select name,sum(weight) as sum_weight from topic_products group by name;
在 Flink 集群的 Web 页面也能够看到任务正确提交，接下来再让我们把聚合数据查出来。
select * from topic_sink

最后，让我们查询一下 MySQL 中的表，来验证数据是否一致；因为在 Flink 中，我们将 weight 字段定义成 Decimal(10,2)，所以我们在查询 MySQL 的时候，需要将 weight 字段进行类型转换。

没有问题，我们的 maxwell json 解析很成功。
写在最后
根据笔者实现 maxwell-json format 的经验，Flink 对于接口的定义、对于模块职责的划分还是很清晰的，所以实现一个自定义 CDC format 非常简单（核心代码只有200多行）。因此，如果你是用的 OGG，或是自研的同步中间件，可以通过本文的思路快速实现一个 CDC format，一起解放你的 CDC 数据！
 
 
原文链接
本文为阿里云原创内容，未经允许不得转载。




    
        
                        flink
                        format
                        hive
                        stream
                        编程
                        php
                        数据库
                        kafka
                        insert
                    
    



    
        写下你的评论吧 !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    

    
        推荐阅读
        
            
                                
                    
                        json
                        如何在Laravel DB :: insert中返回OUTPUT子句的值？
                    

                    
                                                
                        本文介绍了在使用Laravel和sqlsrv连接到SQL Server 2016时，如何在插入查询中使用输出子句，并返回所需的值。同时讨论了使用CreatedOn字段返回最近创建的行的解决方法以及使用Eloquent模型创建后，值正确插入数据库但没有返回uniqueidentifier字段的问题。最后给出了一个示例代码。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-11 10:09:09
                    

                

                
                                
                    
                        js
                        lua语言闭包、模式匹配、日期、编译、模块的特性及应用
                    

                    
                                                
                        本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值，函数可以作为变量自由传递，也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性，为程序开发带来了便利。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 18:18:21
                    

                

                                
                    
                    
                
                
                                
                    
                        char
                        Java String与StringBuffer的区别及其应用场景
                    

                    
                                                
                            
                        
                                                
                        本文主要介绍了Java中String和StringBuffer的区别，String是不可变的，而StringBuffer是可变的。StringBuffer在进行字符串处理时不生成新的对象，内存使用上要优于String类。因此，在需要频繁对字符串进行修改的情况下，使用StringBuffer更加适合。同时，文章还介绍了String和StringBuffer的应用场景。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 19:21:06
                    

                

                
                                
                    
                        instance
                        iOS数据库Sqlite的SQL语句分类和常见约束关键字
                    

                    
                                                
                        本文介绍了iOS数据库Sqlite的SQL语句分类和常见约束关键字。SQL语句分为DDL、DML和DQL三种类型，其中DDL语句用于定义、删除和修改数据表，关键字包括create、drop和alter。常见约束关键字包括if not exists、if exists、primary key、autoincrement、not null和default。此外，还介绍了常见的数据库数据类型，包括integer、text和real。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 18:42:03
                    

                

                
                                
                    
                        text
                        C#学习教程：在Console中工作但在Windows窗体中不工作的异步代码分享
                    

                    
                                                
                        本文分享了一个关于在C#中使用异步代码的问题，作者在控制台中运行时代码正常工作，但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机，但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 15:56:00
                    

                

                
                                
                    
                        char
                        Java实现大数乘法（分治算法）
                    

                    
                                                
                        本文介绍了使用Java实现大数乘法的分治算法，包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 15:43:50
                    

                

                
                                
                    
                        js
                        HDU 2372 El Dorado（DP）的最长上升子序列长度求解方法
                    

                    
                                                
                            
                        
                                                
                        本文介绍了解决HDU 2372 El Dorado问题的一种动态规划方法，通过循环k的方式求解最长上升子序列的长度。具体实现过程包括初始化dp数组、读取数列、计算最长上升子序列长度等步骤。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 15:08:18
                    

                

                
                                
                    
                        js
                        C#学习教程：解析CIM_DateTime为.Net DateTime
                    

                    
                                                
                        本文介绍了如何将CIM_DateTime解析为.Net DateTime，并分享了解析过程中可能遇到的问题和解决方法。通过使用DateTime.ParseExact方法和适当的格式字符串，可以成功解析CIM_DateTime字符串。同时还提供了关于WMI和字符串格式的相关信息。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 12:19:34
                    

                

                
                                
                    
                        js
                        Hibernate基础映射
                    

                    
                                                
                        在说Hibernate映射前，我们先来了解下对象关系映射ORM。ORM的实现思想就是将关系数据库中表的数据映射成对象，以对象的形式展现。这样开发人员就可以把对数据库的操作转化为对 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 10:57:47
                    

                

                
                                
                    
                        hash
                        Spring特性实现接口多类的动态调用详解
                    

                    
                                                
                            
                        
                                                
                        本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍，以及getBeansOfType方法的应用，解决了在实际工作中遇到的接口及多个实现类的问题。同时，文章还提到了SPI使用的不便之处，并介绍了借助ApplicationContext实现需求的方法。阅读本文，你将了解到Spring特性的实现原理和实际应用方式。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 03:24:19
                    

                

                
                                
                    
                        python
                        Python SQLAlchemy库的使用方法详解
                    

                    
                                                
                            
                        
                                                
                        本文详细介绍了Python中使用SQLAlchemy库的方法。首先对SQLAlchemy进行了简介，包括其定义、适用的数据库类型等。然后讨论了SQLAlchemy提供的两种主要使用模式，即SQL表达式语言和ORM。针对不同的需求，给出了选择哪种模式的建议。最后，介绍了连接数据库的方法，包括创建SQLAlchemy引擎和执行SQL语句的接口。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 15:23:06
                    

                

                
                                
                    
                        js
                        Day2列表、字典、集合操作详解
                    

                    
                                                
                            
                        
                                                
                        本文详细介绍了列表、字典、集合的操作方法，包括定义列表、访问列表元素、字符串操作、字典操作、集合操作、文件操作、字符编码与转码等内容。内容详实，适合初学者参考。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 14:14:34
                    

                

                
                                
                    
                        js
                        Java学习笔记之使用反射+泛型构建通用DAO
                    

                    
                                                
                            
                        
                                                
                        本文介绍了使用反射和泛型构建通用DAO的方法，通过减少代码冗余度来提高开发效率。通过示例说明了如何使用反射和泛型来实现对不同表的相同操作，从而避免重复编写相似的代码。该方法可以在Java学习中起到较大的帮助作用。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-11 18:38:04
                    

                

                
                                
                    
                        char
                        数据库知识点复习及命令使用
                    

                    
                                                
                        本文主要复习了数据库的一些知识点，包括环境变量设置、表之间的引用关系等。同时介绍了一些常用的数据库命令及其使用方法，如创建数据库、查看已存在的数据库、切换数据库、创建表等操作。通过本文的学习，可以加深对数据库的理解和应用能力。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-11 16:27:44
                    

                

                
                                
                    
                        char
                        MySQL语句大全：创建、授权、查询、修改等【MySQL】的使用方法详解
                    

                    
                                                
                            
                        
                                                
                        本文详细介绍了MySQL语句的使用方法，包括创建用户、授权、查询、修改等操作。通过连接MySQL数据库，可以使用命令创建用户，并指定该用户在哪个主机上可以登录。同时，还可以设置用户的登录密码。通过本文，您可以全面了解MySQL语句的使用方法。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-11 15:34:14

















    

    
        
            
            
                
                
            

            
                唯爱天使之诺言            

            
                这个家伙很懒，什么也没留下！            


        
    

    
    

    
    

    
        Tags | 热门标签
        
            
                                
                    cpython
                
                                
                    settings
                
                                
                    post
                
                                
                    python
                
                                
                    text
                
                                
                    httpclient
                
                                
                    js
                
                                
                    heap
                
                                
                    c语言
                
                                
                    loops
                
                                
                    future
                
                                
                    schema
                
                                
                    command
                
                                
                    iostream
                
                                
                    search
                
                                
                    shell
                
                                
                    char
                
                                
                    scala
                
                                
                    cPlusPlus
                
                                
                    version
                
                                
                    typescript
                
                                
                    tags
                
                                
                    hash
                
                                
                    install
                
                                
                    uml
                
                                
                    ascii
                
                                
                    yaml
                
                                
                    instance
                
                                
                    dll
                
                                
                    go
                
                                
            
        
    

    
    
        
            
            
        
        RankList | 热门文章
        
            
                                
                    1Vue的select，input点击后放大问题
                
                                
                    2zabbix——分布式监控系统
                
                                
                    3yii2中的资产包生成空文件。 - Assets bundles in yii2 generate empty files
                
                                
                    4作为一位美术生，寒假课程这样设置才不会是对假期的辜负！
                
                                
                    5计算机自底向上（一）：数字逻辑电路和二进制加法
                
                                
                    6Map、Set、List怎么在java项目中使用
                
                                
                    7oracle 检查被锁的表及解锁
                
                                
                    8GitHub应用研究解析
                
                                
                    9fm.jiecao.jcvideoplayer_lib.JCVideoPlayer.clearFullscreenLayout()方法的使用及代码示例
                
                                
                    10js里location关于url的属性
                
                                
                    11TCP Socket 即时通讯 API 示例
                
                                
                    12ETCD介绍—etcd概念及原理方面分析
                
                                
                    13clickhouse之bitmap
                
                                
                    14Hive的快速使用说明一
                
                                
                    15plus one